人为决策的合作努力实现超出人类或人工智能表现的团队绩效。但是,许多因素都会影响人类团队的成功,包括用户的领域专业知识,AI系统的心理模型,对建议的信任等等。这项工作检查了用户与三种模拟算法模型的互动,所有这些模型都具有相似的精度,但对其真正的正面和真实负率进行了不同的调整。我们的研究检查了在非平凡的血管标签任务中的用户性能,参与者表明给定的血管是流动还是停滞。我们的结果表明,虽然AI-Assistant的建议可以帮助用户决策,但用户相对于AI的基线性能和AI错误类型的补充调整等因素会显着影响整体团队的整体绩效。新手用户有所改善,但不能达到AI的准确性。高度熟练的用户通常能够识别何时应遵循AI建议,并通常保持或提高其性能。与AI相似的准确性水平的表演者在AI建议方面是最大的变化。此外,我们发现用户对AI的性能亲戚的看法也对给出AI建议时的准确性是否有所提高产生重大影响。这项工作提供了有关与人类协作有关的因素的复杂性的见解,并提供了有关如何开发以人为中心的AI算法来补充用户在决策任务中的建议。
translated by 谷歌翻译
We present Azimuth, an open-source and easy-to-use tool to perform error analysis for text classification. Compared to other stages of the ML development cycle, such as model training and hyper-parameter tuning, the process and tooling for the error analysis stage are less mature. However, this stage is critical for the development of reliable and trustworthy AI systems. To make error analysis more systematic, we propose an approach comprising dataset analysis and model quality assessment, which Azimuth facilitates. We aim to help AI practitioners discover and address areas where the model does not generalize by leveraging and integrating a range of ML techniques, such as saliency maps, similarity, uncertainty, and behavioral analyses, all in one tool. Our code and documentation are available at github.com/servicenow/azimuth.
translated by 谷歌翻译
Proteins play a central role in biology from immune recognition to brain activity. While major advances in machine learning have improved our ability to predict protein structure from sequence, determining protein function from structure remains a major challenge. Here, we introduce Holographic Convolutional Neural Network (H-CNN) for proteins, which is a physically motivated machine learning approach to model amino acid preferences in protein structures. H-CNN reflects physical interactions in a protein structure and recapitulates the functional information stored in evolutionary data. H-CNN accurately predicts the impact of mutations on protein function, including stability and binding of protein complexes. Our interpretable computational model for protein structure-function maps could guide design of novel proteins with desired function.
translated by 谷歌翻译
Planning is an extraordinary ability in which the brain imagines and then enacts evaluated possible futures. Using traditional planning models, computer scientists have attempted to replicate this capacity with some level of success but ultimately face a reoccurring limitation: as the plan grows in steps, the number of different possible futures makes it intractable to determine the right sequence of actions to reach a goal state. Based on prior theoretical work on how the ecology of an animal governs the value of spatial planning, we developed a more efficient biologically-inspired planning algorithm, TLPPO. This algorithm allows us to achieve mouselevel predator evasion performance with orders of magnitude less computation than a widespread algorithm for planning in the situations of partial observability that typify predator-prey interactions. We compared the performance of a real-time agent using TLPPO against the performance of live mice, all tasked with evading a robot predator. We anticipate these results will be helpful to planning algorithm users and developers, as well as to areas of neuroscience where robot-animal interaction can provide a useful approach to studying the basis of complex behaviors.
translated by 谷歌翻译
建筑物的智能和连续调试(SCCX)可能会大大减少设计和运营性能之间的差距。本体论在SCCX中起着重要作用,因为它们促进了机器的数据可读性和推理。为了将其开发和纳入SCCX,需要更好地了解本体。本文批判性地回顾了自2014年以来自2014年以来在SCCX域内建立数据本体的最新研究,通过基于建筑数据类型,一般方法和应用程序对它们进行排序。在大多数现有本体论中,已经考虑了建筑信息建模和建筑管理系统的两个主要领域的数据类型。从现有本体论的批判分析中可以明显看出三个主要应用:(1)关键绩效指标计算,(2)建筑物绩效的改善以及(3)故障检测和诊断。文献综述中发现的关键差距是SCCX的整体本体,并了解应如何评估这种方法。基于这些发现,本研究为未来的必要研究提供了建议,包括:与SCCX相关的数据类型的识别,本体学绩效评估以及创建开源方法。
translated by 谷歌翻译
国际危机如何展开?我们将国际关系概念化为对手之间的战略国际象棋游戏,并开发了一种系统的方法,以准确且一致的历史准确,一致地测量碎片,移动和gam。我们基于国际危机行为(ICB)项目的非常高质量的叙事语料库,介绍了一个名为ICBE的国际事件的新本体和数据集。我们证明,ICBE的覆盖范围,召回和精度比现有数据集的现有状态更高,并进行了两项关于古巴导弹危机(1962)和Crimea-Donbas危机(2014)的详细案例研究。我们进一步介绍了两个新的事件可视化(事件Icongraphy和危机地图),这是一种使用自然语言处理(Sythnetic叙述)测量事件召回的自动基准,以及用于客观测量事件精确度的本体论重建任务。我们在伴侣网站www.crisisevents.org和github存储库中提供数据,在线附录,复制材料以及可视化的可视化材料和可视化。
translated by 谷歌翻译
DeepFake是使用AI方法产生或操纵的内容或材料,以便像真实一样传递。有四种不同的DeepFake类型:音频,视频,图像和文本。在这项研究中,我们专注于音频Deew,以及人们如何感知它。有几个音频DeepFake发电框架,但我们选择梅尔甘,这是一个非自动增加和快速的音频DeepFake产生框架,需要更少的参数。本研究试图评估来自不同专业大学生的音频深蓝。本研究还回答了他们的背景和主要可能影响他们对AI生成的深度的看法的问题。我们还基于以下不同方面分析结果:年级水平,语法的复杂性,音频剪辑中使用的语法,音频剪辑的长度,那些了解术语的人和那些没有政治角度的人和那些。有趣的是,结果表明当一个音频剪辑有政治内涵时,即使内容相当相似,它也会影响人们是否是真实的或假的。这项研究还探讨了背景和主要可能影响对德国人的看法的问题。
translated by 谷歌翻译
DeepFake是使用人工智能(AI)方法合成生成或操纵的内容或材料,以防止真实,并且可以包括音频,视频,图像和文本合成。与现有的调查论文相比,此调查与现有的调查文件相比具有不同的视角,主要专注于视频和图像Deewakes。该调查不仅评估了不同的DeepFake类别中的生成和检测方法,而且主要关注大多数现有调查中被忽视的音频Deewakes。本文重视分析并提供了一个独特的音频Deepfake研究来源,主要是从2016到2020年的范围。据我们所知,这是第一个专注于英语中音频Deewakes的调查。本次调查为读者提供了摘要1)不同的DeepFake类别2)如何创建和检测到它们3)该领域的最新趋势和检测方法中的缺点4)音频DeepFakes,如何更详细地创建和检测到它们这是本文的主要重点。我们发现生成的对抗性网络(GAN),卷积神经网络(CNN)和深神经网络(DNN)是创建和检测德刀的常见方式。在我们对超过140种方法的评估中,我们发现大多数重点都在视频Deewakes上,特别是在播放视频德国。我们发现,对于文本Deew,有更多的一代方法,但较少的检测方法,包括假新闻检测,这已成为一个有争议的研究领域,因为由于人类发电的假含量重叠的潜力。本文是完整调查的缩写版本,并揭示了研究音频Deew饼的清晰,特别是检测音频Deewakes。
translated by 谷歌翻译
我们概述了新兴机会和挑战,以提高AI对科学发现的效用。AI为行业的独特目标与AI科学的目标创造了识别模式中的识别模式与来自数据的发现模式之间的紧张。如果我们解决了与域驱动的科学模型和数据驱动的AI学习机之间的“弥补差距”相关的根本挑战,那么我们预计这些AI模型可以改变假说发电,科学发现和科学过程本身。
translated by 谷歌翻译
抽象和推理语料库(ARC)是一组用于测试代理人灵活解决新颖问题的能力的程序任务。虽然大多数弧任务对于人类来说很容易,但它们对最先进的AI有挑战性。是什么让建筑物智能系统概括到新颖的情况,例如arc困难?我们可以通过研究\ emph {语言}的差异来找到答案:虽然人类在容易地生成和解释了一般语言中,计算机系统被束缚到他们可以精确执行的狭窄域的语言。我们呈现LARC,The \ Texit {语言完整的ARC}:一组人类参与者的一系列自然语言描述,这些人参与者在如何使用单独的语言解决acc任务,其中包含88 \%的成功说明弧任务。我们将收集的指示分析为“自然程序”,发现当他们类似于计算机程序时,它们以两种方式截然不同:首先,它们含有各种基元;其次,他们经常利用直接可执行代码超出交际策略。我们证明这两个区别防止了当前的程序合成技术利用LACC到其全部潜力,并提供有关如何构建下一代程序合成器的具体建议。
translated by 谷歌翻译